#Gemini Pro
GoogleAI逆襲背後的頭號功臣
【新智元導讀】Google AI 在 2025 年下半年打了個漂亮的翻身仗,用 Nano Banana 和 Gemini 3 Pro 這兩款殺手級模型,從 OpenAI 手下搶走了大量使用者。背後的功臣,對內聲名顯赫,對外默默無聞。他是誰?他有著怎樣傳奇的故事?在Google最危險的時刻,一位不為外界熟知的中年人在內部臨危受命。他引領團隊開發出爆紅的AI應用,讓GoogleAI業務起死回生,甚至一度打敗 ChatGPT 登頂應用榜。他是誰?他的故事揭示了Google如何用創新和責任心,在 AI 競賽中重奪主動權。GoogleAI逆襲背後的「無名」功臣2025 年 8 月的一個深夜,Google資料中心的警報突然頻繁響起——伺服器負載飆升至前所未有的水平。工程師們開玩笑說,再這麼下去,他們特製的TPU晶片恐怕都要被燒化了。引發這一切的,是Google Gemini 應用中新上線的圖像生成功能「Nano Banana」。這個功能可以將多張照片融合成獨特的數字人偶,意外地在全球引爆了使用者熱情。短短幾天裡,海量使用者湧入嘗鮮,生成的圖片數量迅速突破數十億張,直接把Google的伺服器「烤」得冒煙。Google被迫緊急對 Nano Banana 的使用加以限制,以免後台基礎設施真的撐不住這股熱潮。然而,這場近乎「失控」的走紅非但沒有讓Google高層惱火,反而令整個公司為之振奮——Gemini應用終於一戰成名。在8月底功能推出後的短短一個月內,Gemini 累計生成圖像超過 50 億張,甚至一度超越 OpenAI 的 ChatGPT 躍居蘋果 App Store 下載榜首。而站在這一切背後的操盤手,正是一位在公司內部聲名顯赫,對外低調神秘的中年人:Josh Woodward。42 歲的 Josh Woodward 並非矽谷家喻戶曉的名字,但在Google內部,他幾乎是傳奇般的存在。這位出生於美國中部奧克拉荷馬州的產品經理,2009 年通過實習進入Google,從此一路在各種創新項目中嶄露頭角。早年間他曾參與建立Google最初幾代 Chromebook 筆記型電腦,聯合創立了面向新興市場使用者的「下一個十億使用者(NBU)」計畫,並主導了 Google Pay 支付服務的拓展。豐富的履歷和雷厲風行的作風,使他在內部備受推崇。正因如此,當Google在生成式AI領域感到空前的壓力時,管理層想到了 Woodward。2025 年 4 月,Google AI 戰線進行了一次關鍵人事調整:一直埋頭於實驗室業務的 Woodward 被提拔為 Gemini 應用負責人,接過公司AI戰略的帥印。當時,OpenAI 憑藉 ChatGPT 在 AI 領域風頭正勁,行業專家紛紛預言使用者將從傳統搜尋轉向AI應用。Google痛感自己的搜尋霸主地位受到威脅,加上母公司 Alphabet 一季度股價暴跌約兩成,亟需一場勝利來重振士氣。接任後的 Woodward 深知責任重大,他一手主管 Gemini 應用業務,同時仍領導著Google旗下的新興技術試驗田——Google Labs,肩負起在 AI 競賽中為Google開闢新賽道的雙重任務。「TPU 快被燒化了!」 AI爆款的誕生Woodward 上任後不久,就迎來了大顯身手的機會。這款名為 Gemini 的 AI 應用原本籍籍無名,卻因為一個名叫「Nano Banana」的新功能而聲名鵲起。Nano Banana 最初只是團隊的一次創意迭代:使用者可以上傳多張自己的照片,由AI將其合成為一個獨一無二的數字玩偶形象。沒想到這個充滿趣味的功能一推出就風靡全球,伺服器上一時間請求暴增。據Google AI 基礎架構負責人 Amin Vahdat 回憶:「我們的TPU晶片組當時幾乎要被烤化了!」。團隊不得不暫時為 Nano Banana 設定使用上限來緩解壓力。然而,這次「小危機」凸顯的正是巨大的機會:使用者對個性化AI創作的渴求超出了所有人的想像。Woodward 敏銳地意識到這正是 Gemini 突圍的契機。在他的推動下,團隊連夜擴容後台算力,全力保障這一功能的穩定運行。事實證明,這場硬體「險情」恰是 Gemini 騰飛的起點——到 9 月底,Gemini 應用累計生成的圖像已突破 50 億張。憑藉 Nano Banana 的爆紅,Gemini 應用的月活躍使用者從 3 月的 3.5 億飆升到 10 月的 6.5 億。更令Google揚眉吐氣的是,在 Nano Banana 帶動下,Gemini 在蘋果 App Store 的下載量一舉超越了 ChatGPT,登上免費應用榜冠軍。Google用了不到半年時間,就實現了從 AI 跟隨者到市場領跑者的驚人逆轉。Alphabet 公司的股票也隨之止跌回升,到年底累計上漲了 62%,成為當年美股中表現最亮眼的科技巨頭之一。這一切都令業界震動:Google似乎找回了久違的速度與激情,而推動公司完成這次AI領域「逆襲」的關鍵人物,正是 Woodward。對於 Gemini 的成功,Woodward 保持著難得的清醒與冷靜。他深知,在快速推進 AI 創新的同時,更需要慎重考慮技術可能帶來的負面影響。今年 11 月,Google發佈最新的大模型 Gemini 3,引發行業轟動。在接受媒體採訪時,Woodward 興奮地表示「我從來沒有像現在這樣覺得工作充滿樂趣」 ——AI 模型的強大能力讓各種天馬行空的產品創想成為可能。但身為掌舵者,他也時刻警惕著技術的雙刃劍。此前,他就在紅杉資本的播客節目中坦言,AI 的進步正處於一個足以「改變時代」的關鍵節點,這種改變「可能是向善的,也可能是適得其反的」。事實證明,Nano Banana 功能在爆紅的同時也一度引發爭議:有使用者使用它根據提示詞合成援非人道主義場景的形象時,生成的畫面卻是身著便服的白人女性周圍圍繞著非洲黑人兒童,引來種族刻板印象的批評。這類爭議讓 Woodward 更加意識到,AI 產品在追求創新的同時絕不能忽視社會責任。他要求團隊迅速最佳化演算法,避免再次出現類似偏見輸出,並強調任何 AI 新功能上線前都要經過更嚴格的審查。Google內部也在他的倡議下設立專門機制,評估熱門AI應用可能引發的道德和信任問題,力求在保持高速創新的同時守住「不會傷害使用者信任」的底線。Google在制定AI產品戰略時相當克制理性。Woodward和他的上級、DeepMind CEO 哈薩比斯(Demis Hassabis)商議後,有意避開了時下火熱但容易引發倫理爭議的「AI情感伴侶」方向,而是堅持將Gemini定位為提升工作效率的超級工具。Google內部給Gemini制定的考核指標並非使用者粘性或時長,而是每天幫助使用者完成了多少實際任務。這樣的取捨背後,是Woodward對於AI角色邊界的深思——AI最重要的價值應在於賦能人類,而非讓人沉迷於虛擬陪伴。當下,生成式AI正加速滲透進人們生活的方方面面,海量AI生成內容充斥網路,真偽難辨。Woodward比任何人都清楚,Google必須加倍謹慎,既要跑贏競賽,又不能因魯莽而丟掉使用者多年來對Google品牌的信任。因此,他在業務衝鋒的同時,以身作則地為團隊敲響警鐘:「我們正處在一個技術巨變的關口,這種變革將影響好幾代人。身處這個位置,我們必須確保它被用來促進善意,而非滋生危害。」敢想敢幹 「讓他們盡情去做」Gemini應用的成功並非偶然。事實上,Woodward上任之前就在Google內部孵化出多款頗具前景的AI產品。其中最出名的,當屬AI筆記助理NotebookLM。它最初只是Google Labs團隊一個默默無聞的試驗項目——資深產品經理Raiza Martin利用工作之餘的「20%時間」開發了一個名為Project Tailwind的原型:它可以讓使用者上傳文件、PDF甚至視訊,然後由AI提煉要點、生成摘要或見解。Woodward對這個創意一眼相中,大力支援團隊繼續打磨。為了把這個項目做成真正貼近使用者需求的產品,他大膽採取了一系列「非常規」舉措,打破了Google內部的慣例和層層壁壘。首先,Woodward從外部網羅來一位出人意料的「臨時盟友」——科技作家史蒂文·約翰遜(Steven Johnson)。Johnson在業界小有名氣,出版過多本暢銷書,卻從未在任何公司任職過。2022年,Woodward讀到Johnson關於AI與創意的文章後深受啟發,竟主動發出邀請,請他以訪問學者的身份加入Google Labs,共同探索如何用AI增強人類的創造力。對於這種「不按常理出牌」的合作模式,Woodward的想法很簡單:「讓四五個工程師和一個真正的作家碰在一起,看看會產生什麼火花」。在他的牽線下,Johnson開始兼職參與Project Tailwind,為團隊提供作家視角的輸入,分享職業寫作者整理資訊的工作流。工程師們在一旁觀察他的使用習慣,不斷改進產品功能。一段時間磨合後,Johnson深深投入其中,最後乾脆接受了Woodward的邀請轉為全職,擔任NotebookLM團隊的「創作總監」。這樣「破圈」的人才能夠加盟Google,靠的正是Woodward勇於創新用人的魄力。不僅如此,為了快速完善NotebookLM,Woodward還鼓勵團隊主動擁抱外部使用者社區的力量。在產品開發早期,團隊希望收集真實使用者的反饋來改進產品。按常規,Google內部有自己的論壇和郵件列表,可以用來做封閉測試。但年輕的產品經理Raiza更傾向於直接去主流社群與使用者互動,她選擇了當下開發者和AI愛好者云集的平台——Discord聊天伺服器。這在當時引起了一些內部爭議:畢竟Google一向偏好使用自家產品,很多高管甚至不知道Discord為何物。有管理人員質疑:「為什麼不用Google Meet會議或者內部群組?」對此,Woodward全力支援Raiza的提議。他乾脆對團隊撂下一句:「讓他們盡情去做吧(Let them cook)!」在他的力挺下,NotebookLM項目組順利搭建了Discord伺服器,與第一批種子使用者直接交流。這種開放姿態很快收穫了回報:借助社群力量,NotebookLM在打磨階段就吸引了大批AI發燒友的關注,產品不斷根據反饋迭代升級。到2024年底,該Discord社區已匯聚了超過20萬名成員,成為Google史上最活躍的產品使用者社區之一。很多團隊成員坦言,如果沒有Woodward頂住內部壓力允許他們「破例」用第三方平台,這款產品不可能進步得如此快、如此好。終於,2023年5月,Woodward帶著打磨成型的NotebookLM走上Google一年一度的I/O開發者大會舞台。在Google雲CEO托馬斯·庫裡安的主題演講結束後,Woodward出人意料地現身台上。他先是賣了個關子,向台下觀眾介紹說:「我們在幾周內用五名工程師拼出了一個新點子,叫作Project Tailwind。我自己的母校俄克拉荷馬大學師生也參與了內測。大家想看看它能做什麼嗎?」隨後,他現場操作筆記應用,匯入幾篇文件。不出幾秒,螢幕側欄便自動生成了這些材料的關鍵詞和延伸提問。他隨手點開「引用來源」按鈕,興奮地介紹道:「這個功能是我最喜歡的——AI會標註出每條答案背後的出處。 」短短幾分鐘的演示贏得滿堂喝彩。NotebookLM就此進入公眾視野,並在隨後數月向廣大使用者開放試用,上線不久便廣獲好評。Google很快為其加入了支援音訊、視訊內容的分析功能,讓這款AI筆記助手更趨完善。NotebookLM的成功不僅證明了Woodward識人用人的獨到,也驗證了他推動內部「減小阻力」所取得的成效。在官僚體系龐大的Google公司,許多創新想法往往困於流程冗長、部門掣肘。為此,Woodward在Google Labs內部設立了一個特別機制,員工如果遇到體制上的「絆腳石」可以提交一個代號為「Block」的工單,由專門團隊迅速協調資源排障。NotebookLM項目在籌備上線時一度面臨算力不足的問題,Woodward 便通過這一機制火速調撥了更多TPU算力支援,確保產品性能萬無一失。據團隊工程師回憶,有了「Block」系統的保駕護航,他們再也不用為內部審批耗費精力,可以心無旁騖地專注於產品研發。「有這樣一位負責人幫我們清理那些惱人的障礙,我們才能真正將精力放在使用者身上。」Google Labs 的一名軟體工程師 Usama 感嘆道。小細節,大作為Woodward 領導風格中另一個令人稱道的特點,是他對「細節決定成敗」的高度重視。擔任 Gemini 和 Google Labs 負責人後,他發起了一項名為「Papercuts」(紙割傷)的內部計畫,專門蒐集和快速修復那些雖然不至於致命、但影響使用者體驗的「小傷口」。在 Woodward 看來,這些細枝末節的改進往往最能打動使用者,卻常被大公司忽視。有使用者抱怨在 Gemini 聊天時無法中途切換大模型而不重新開始對話,Woodward 知道後立刻催促工程師最佳化。不久他就在自己的 X 帳號上驕傲地宣佈:「Papercut 已修復:現在你可以在 Gemini 應用的對話中途切換模型而無需重新啟動會話了。」這條動態下面,許多使用者紛紛留言點贊,感謝他傾聽並解決了困擾自己的「小問題」。事實上,親自聆聽使用者聲音、持續打磨產品細節,幾乎已經成為 Woodward 工作的日常。身為公司高管,他卻常常一頭紮進社交媒體的一線陣地,在 X 和 Reddit 上直接回答使用者提問、收集吐槽反饋。業界人士形容這在科技巨頭中相當少見——一位負責核心產品的副總裁竟然親自在論壇上當「客服」,甚至把使用者直言不諱的批評意見轉發給開發團隊要求改進。但在 Woodward 看來,這正是產品經理應有的擔當:「使用者願意花時間告訴我們問題出在那兒,那就是在幫我們變得更好。」NotebookLM 團隊一名前設計師 Jason 回憶,Woodward 經常帶著從使用者社區蒐集的反饋走進會議室,對大家說「看看,這是使用者真正關心的,我們能做點什麼?」Jason 由衷佩服地說:「這種對終端使用者的承諾和執著,我在其他領導身上幾乎沒見過。」Woodward 平易近人的人格魅力也在這些「小事」中展露無遺。同事們常提起他的一個招牌舉動:當有團隊成員因為線上評論的批評而情緒低落時,Woodward 會故作誇張地哈哈一笑,用他那帶著中西部口音的爽朗笑聲打趣道:「走,一起回覆網友去!」據說,沒有人能抗拒他這富有感染力的笑聲——緊張的氣氛瞬間就被他化解了。前同事 Caesar Sengupta 曾打趣地評價:「我從沒見他對誰發過火。」這位與 Woodward 共事多年的Google前高管甚至半開玩笑地放言:「照這樣下去,他早晚會成為Google的 CEO。」雖然只是戲言,但也從側面反映出 Woodward 在Google內部的威望和人望之高。從奧克拉荷馬小鎮少年 到Google中流砥柱在成為Google AI 戰略幕後英雄之前,Josh Woodward 的人生軌跡並非典型的「矽谷精英」路線。他 1983 年出生於美國奧克拉荷馬州一個普通家庭,自幼成長於埃德蒙德(Edmond)小鎮。從小勤奮好學的 Woodward 考入了家鄉的俄克拉荷馬大學主修經濟學,2006 年以優異成績畢業,並被評為年度傑出畢業生之一。大學期間,他對公共事務和全球視野表現出濃厚興趣,積極參加各類學生領導力項目。畢業後,他獲得獎學金遠赴英國牛津大學深造,攻讀比較政府學,並於 2009 年拿下碩士學位。在牛津,他把研究重點放在美國軍事及經濟援助對外國民主處理程序的影響上——這一少有人問津的題目透露出他對「科技與社會」「力量與責任」等宏大命題的早期思考。也許正因如此,當他回到美國踏入科技行業時,能始終從更長遠的角度審視手中的技術。2009 年,Woodward 以產品管理實習生的身份加入Google,很快顯露出過人的敏銳和領導才能。他樂於接受具有挑戰性的任務,勇於從零開始打造新項目。在Google工作最初十年裡,他涉足多個前沿領域,從硬體裝置到新興市場,無不留下自己的印記:他參與了 Chrome 作業系統和首批 Chromebook 筆記本的開發;自告奮勇加入公司新成立的「NBU」計畫,去研究和服務印度等地第一次觸網的海量使用者,並因此被視為NBU項目的奠基人之一;後來又接手 Google Pay 的國際化拓展業務,為數億使用者帶去便捷的移動支付體驗。這些橫跨軟硬體、全球市場的經歷,讓 Woodward 對「如何讓技術普惠大眾」有了深刻理解。這種理念也貫穿在他之後負責的AI產品中——無論是 NotebookLM 還是 Gemini,他始終強調的是為使用者創造真正有用的價值,而不僅是炫技式的噱頭。Woodward 還有一個鮮明的個人標籤:酷愛閱讀且樂於分享。熟悉他的人都知道,他的辦公室和家中總是堆滿書籍,從商業傳記到科幻小說無所不讀。據說Google高管層每每想找本好書讀時,第一個諮詢的對象就是 Woodward。他至今堅持寫閱讀筆記,早年在 NBU 團隊時便每周編輯一封內部通訊,內容簡潔而發人深省,當時這封通訊在Google內部意外走紅,許多人聞訊後紛紛來信請求訂閱。如今儘管工作繁忙,他仍保持著每季度給團隊和朋友們寫一封「Josh 通訊」的習慣,分享自己近期讀到的有趣見解。身邊同事戲稱他是Google的「行走書單」。更難能可貴的是,Woodward 不僅博覽群書,還善於將知識活用於工作決策中。據前文提到的 Raiza 回憶,在 NotebookLM 項目開發過程中,Woodward 曾特地發給她一篇論文,探討使用者究竟能否信任AI聊天機器人的答案。這讓 Raiza 意識到,領導關心的不僅是產品功能實現,更是產品能否真正贏得使用者信任。類似的故事不勝列舉——他會建議團隊工程師閱讀科幻小說,從中獲得對未來技術的想像力;也會邀請人文學者來交流,提醒大家科技創新不能脫離人文關懷。這些細節都體現出 Woodward 作為領導者的深度與溫度。變革時代的掌舵者2025 年行將結束之際,Google憑藉在AI領域的一連串突破重新煥發了生機:從 Gemini 3 模型的橫空出世,到一個又一個「現象級」應用的推出,整個公司一掃年初的低迷,士氣高漲。CEO 桑達爾·皮查伊(Sundar Pichai)在全員大會上興奮地表示:「過去這一年的進展真是令人難以置信——Google各個團隊都在以前所未有的速度推出新功能。」而站在這股 AI 浪潮中央、備受矚目的,正是 Josh Woodward 和他所率領的團隊。展望 2026 年,業界對Google寄予厚望,期待這家科技巨頭繼續以 Responsible AI(負責任的人工智慧)的姿態領跑。在聚光燈之外,Woodward 依然埋頭忙碌著:既要帶領兩個部門創新競速,又要謹慎把關每一項技術的潛在影響。然而,這位久經考驗的「Google AI 掌櫃」臉上沒有焦慮,有的只是對未來的堅定信心和一絲藏不住的興奮。在最近的一次採訪中,當被問及如此高壓的工作如何堅持時,他爽朗一笑:「因為從未像現在這樣好玩啊!」對於熱愛挑戰的他來說,這或許正是真正的樂趣所在——身處巨變浪潮之巔,以初心為舵,划槳向前,讓技術的光芒照亮而非灼傷這個世界。 (新智元)
Gemini負責人:Pro的主要作用是蒸餾Flash!最大突破空間在後訓練;Noam、Jeff Dean:持續學習是重要改進方向
2025年底,最令人印象深刻的AI圈大事莫過於Gemini 3 Flash的發佈。它主打輕量級、速度快,不僅智能全面超越Gemini 2.5 Pro,而且部分性能也反超了3 Pro和GPT-5.2(比如程式設計能力和多模態推理),令人非常驚豔。就在前天,Gemini的三位共同負責人Oriol Vinyals、Jeff Dean、Noam Shazeer和Google AIStudio 的產品負責人 Logan Kilpatrick 罕見同台,進行了一次對話。這三位嘉賓都相當重量級:Oriol Vinyals是Google DeepMind 研究副總裁兼深度學習負責人;“傳奇院士”Jeff Dean 大家都認識,他也是Google首席科學家;Noam Shazeer則更不用說了——Transformer的論文作者之一,也是Gemini 的聯合負責人。在這場談話中,Gemini的三位共同負責人表示:現在新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。Oriol Vinyals甚至坦言:Pro的主要作用,就是拿來蒸餾Flash!他認為,那怕犧牲一點智能,更快更便宜的模型對使用者來說也非常重要。所以對於Flash這樣小而強的模型,他們一定會持續增加投入。Logan Kilpatrick也透露,他們在GoogleAI Studio 裡針對 vibe coding 這個用例,做了一些 Flash 模型和 Pro 模型的對比測試。結果發現:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。可見 Flash 有多麼受歡迎。此外,他們還談論了Gemini這一年的整體進展、內部的訓練細節、對Pro和Flash版本的取捨以及模型後續演進的重要方向等等。Jeff Dean 透露,Gemini目前用的基礎架構是他2018年提出的Pathway架構,主要有三個目標:一個模型可以泛化到數百萬個任務,強多模態,並且採用稀疏啟動。現在Gemini已經基本實現了這三個目標。而Jeff Dean也透露,關於模型能力的演進方向,Google內部已經有了Gemini的下一個“五年計畫”。Gemini 3剛發佈時,Oriol 曾在X上表示,Gemini 3的核心秘訣是提升預訓練+後訓練,尤其在後訓練上還是一片未被開墾的“綠地”,有很大的提升空間。而在這次談話中,他也再次強調,當前階段最大的突破空間很可能在後訓練。Jeff Dean則認為,目前在一些Benchmark上,模型能力基本已經見頂,尤其是程式碼、推理和數學領域;但在“幫我規劃一次舊金山旅行”這種開放式任務上,模型能力還有較大的提升空間。另外,Noam 和 Jeff 也強調,大模型的規模依然重要,但它不再是決定一切的唯一變數。相比之下,模型的持續學習能力才是後續的重要改進方向。小編翻譯並整理了整期對話實錄,有不少有價值的資訊,enjoy!Gemini的起源:Google Brain與Deepmind的融合Logan Kilpatrick已經有不少人試用了 Gemini 3 Flash,並對模型進行了測試,整體反饋非常積極,勢頭非常強勁。此前我們發佈了 Gemini 3 Pro,現在整體都在加速推進。Jeff、Oriol、Noam,你們三位是 Gemini 的聯合技術負責人,整體上在引領 Gemini 的方向。也許我們可以從 Jeff 開始,請你從自己的視角談一談:在 Gemini 3 Flash 和 3 Pro 發佈的這個時間點,我們正處在一個怎樣的階段?以及最近這段時間,我們是如何走到今天這一步的?Jeff Dean當然。我們對 Gemini 3 系列模型感到非常興奮,包括幾周前發佈的 Pro,以及昨天發佈的 Flash。正如你所說,我、Oriol 和 Noam 是 Gemini 項目的三位聯合技術負責人。我們已經合作很多年了,一起工作一直非常愉快。從 Gemini 項目的起源來看,其實源於我當時的一個觀察:在 Google 內部,我們在大語言模型規模化方面已經積累了很多優秀成果;在 Google Brain(當時屬於 Google Research)也在推進多模態模型;與此同時,Oriol 在原 DeepMind 團隊中也在做相關工作。但問題在於,這些非常優秀的人才和研究工作是分散的,算力資源同樣是分散的。我認為,如果我們能真正整合力量,作為一個統一的團隊協作,會好得多。這就是 Gemini 團隊和項目的起點——發生在 Gemini 1.0 發佈之前不久。此後,看到模型一代代演進非常有意思:Gemini 1.5、2.0、2.5,再到幾周前發佈的 Gemini 3 Pro,以及本周發佈的 Gemini 3 Flash。我們對此都非常興奮。當然,我們也必須學會如何跨越海洋、跨越多個地點協作,這本身就是一個學習過程。但我認為我們現在已經真正進入了狀態。大約從一年前的 2.5 系列開始,到現在的 3 系列,我們明顯找到了節奏。Logan Kilpatrick我非常喜歡這一點。看到 Brain、DeepMind、Google Research 的人才真正融合在一起,並且取得如此快的進展,確實非常酷。Oriol,我也很好奇你從自己的視角怎麼看這個問題,尤其是從歷史上看,Brain 和 DeepMind 在研究方法上的差異。我個人在看《The Thinking Game》這部紀錄片時,一個非常強烈的感受是:DeepMind 在十年前解決的問題,以及後來 AlphaFold 面對的問題,和我們今天在 Gemini 上遇到的挑戰,其實非常相似。其中讓我印象最深的是資料問題:比如人類真實標註的蛋白質折疊資料非常稀缺,團隊必須通過各種方式“合成性地放巨量資料規模”。我很好奇,這種思路與你們今天所處的 RL、“測試時計算”範式之間,有多少相似性?你覺得當年那些問題和今天這個階段之間,有多大的連續性?Oriol Vinyals我可能先從一個更宏觀的角度來回答。在組織層面,我其實非常幸運:很多年前我在 Brain 團隊工作,後來我搬到倫敦,加入了 DeepMind。所以我親身經歷了這兩種研究文化在早期的差異。當然,正是我和 Jeff 之間的聯絡,最終也幫助我們啟動了 Gemini 項目,把這兩個團隊再次結合起來。從研究方式上看,尤其是 DeepMind 的早期文化,有一個非常鮮明的特點:明確的長期目標、宏大的願景,以及“不解決問題就不罷休”的項目周期。這種精神其實深刻地體現在 Gemini 的起點上——Gemini 的目標是建構 AGI,是“解決智能”這個問題,我們是為長期而來。3.0 很棒,但它並不是終點。當然,Brain 也有大量類似的長期項目,同時帶來了對神經網路架構、訓練方法等方面的多樣化探索和創新。這些基因同樣進入了 Gemini。所以可以說,這兩個組織的 DNA 在 Gemini 中完成了融合。而在方法論上,正如我們今天看到的那樣,無論是資料驅動的無監督/預訓練,還是強化學習(RL),依然是未來模型持續創新的“綠地”。回頭看一些早期項目,當時外界並不總是理解我們在做什麼,尤其是我們研究打電子遊戲的那段時間。但我們的目標始終是:開發能夠更廣泛泛化的演算法。事實上,很多當年開發的演算法,現在都可以直接應用在大語言模型上。當時這點對我們來說是顯而易見的,但對外界並不明顯。比如 AlphaFold 中使用的蒸餾、強化學習加監督式自舉(就像 AlphaGo 那樣),這些方法與今天在大語言模型中的做法是高度一致的。這些技術在不斷被發現、打磨、改進,而每一輪迭代都會帶來新的提升。我認為,從 2.5 到 3.0 的躍遷,無論是在預訓練還是後訓練上,都疊加了大量這樣的改進,最終形成了一次相當顯著的提升。Logan Kilpatrick我非常喜歡這個說法。我之後可能還會再提到這一點。順便說一句,我記得之前看到過一個 meme,不知道是 Jeff 還是 Oriol 發的,大概意思是:“是該擴展預訓練,還是擴展後訓練?”然後答案是同時狂按兩個按鈕。這個 meme 是誰的功勞?Jeff Dean我覺得是 Oriol 吧?Oriol Vinyals我好像聽說過這個說法,但 meme 不是我做的。不過感謝 whoever 發了那個 meme,我其實沒看到。Jeff Dean真正的“秘密”就是:更好的預訓練,加上更好的後訓練。Oriol Vinyals對,這就是秘密。非常“機密”的秘密。Noam Shazeer我覺得有趣的一點在於:雖然我們只有一個統一的目標,但這是一個可以從非常多正交方向持續取得進展的問題。正如 Oriol 提到的,“加強預訓練”“加強後訓練”只是其中兩個按鈕。實際上還有很多這樣的按鈕,每一個都能從不同維度提升模型效果。這恰恰非常適合一個擁有數百、上千名工程師和研究員的大型組織。你可能會覺得這麼多人一起工作一定會一團亂麻,但事實證明,如果問題本身可以被拆解為多個正交方向,那麼在十個方向上各取得一點突破,疊加起來就會產生巨大進展。這正是 Google Brain 自下而上研究方式的優勢,而它也與 DeepMind 更加聚焦長期目標的方式形成了非常好的互補。如何看待產品與模型的關係Logan Kilpatrick最近我在和一些人討論一個問題,Corey 也從某種角度提到過——我這裡用自己的方式轉述,不代表他的原話:產品本身是否也是一種“規模化機制”?我們可以擴展模型規模、擴展預訓練和後訓練、使用測試時計算等等。但現在你會看到,很多評測開始引入“帶工具的 benchmark”“帶 agent harness 的 benchmark”。我很好奇你們怎麼看待“產品”在其中扮演的角色:它是否能反過來幫助提升模型本身的能力和互動閉環?這是不是你們正在思考的方向?Noam Shazeer我認為這非常有價值。我很喜歡在 Google 這樣的全端公司工作,從底層 AI 技術,一直到服務數十億使用者。產品不僅能為訓練提供資料和反饋,也能極大提升團隊的動力。看到自己做的東西正在被真實使用者使用,這本身就非常有意義。Jeff Dean我補充一點:當你的工作被大量使用者使用時,這對人是極其有激勵作用的。這可以是直接的,比如 Gemini App;也可以是間接的,比如 Gemini API,被開發者使用,或者嵌入到各種 Google 產品中。這正是我當初進入軟體工程領域的原因之一,看到自己的工作被使用,是非常快樂的事情。少數人做出的成果,可以讓數百萬、數千萬,甚至數十億人受益。這是軟體行業非常獨特、其他職業很難擁有的體驗。Oriol Vinyals我從稍微不同的角度補充一下。我們三個人本質上都是深度學習研究者,但你永遠無法繞開真實世界。歷史上有無數例子:正是因為真實世界的需求,我們才不得不發明新的技術。比如在圖像識別早期,我們發現圖像並不會總是居中,於是需要設計能夠處理這種情況的模型。又比如文字是變長的,你無法直接把摺積網路套在可變長度的文字上,於是我們發展了循環網路、再到 Transformer。今天也是一樣。如果使用者希望和聊天模型進行跨越多年的長期互動,那我們就必須從研究層面正面解決這個問題。所以現實世界的需求本身,也在強迫我們不斷創新。當然,這也與動力、影響力密切相關,我們做的事情確實重要,這讓我們保持腳踏實地。Jeff Dean我再補充一點。除了關注“誰在用你的產品”,在一家全端公司裡,另一個巨大優勢是:我們會非常深入地思考訓練模型所依賴的基礎設施。我們已經建構自己的 AI 加速晶片 TPU 超過十年了。這對兩件事至關重要:一是讓深度學習模型可以部署到更多產品場景中;二是支援模型訓練規模的持續擴展。早在 2012 年左右 Brain 團隊成立初期,我們主要使用資料中心裡的 CPU 訓練模型。當時我們就訓練出了一個規模是此前最大模型 50 倍的神經網路,在視覺和語音任務上都取得了驚人的效果。但我們也很快意識到:如果要把這些模型服務給大量使用者,僅靠當時的 CPU 或 GPU 是不夠的,這直接促成了 TPU 項目的誕生。此後,我們持續迭代 TPU,使其能夠很好地支撐 Gemini 的大規模訓練和推理服務。目前最大的突破空間在後訓練Logan Kilpatrick是的,我們現在真的是怎麼都不夠用 TPU,這確實是一個非常現實的瓶頸。我不太清楚“Gemini 聯合技術負責人”這個職位的精確崗位說明是什麼,但我猜,對你們三位來說,工作中至少有一部分是要決定:下一步的關鍵技術下注點在那裡,我們要朝那些方向走。Demis 多次提到過這樣一個觀點,我相信也有不少人認同:要真正走向 AGI,可能一定需要某種架構層面或模型層面的根本性突破,而不僅僅是持續的工程創新。當然,我們也看到,每一次模型發佈本身就包含了大量創新。比如如果你單看 Gemini 3 Flash 和 3 Pro,就會發現這並不是第一次被提到,Flash 在後訓練配方上有一系列創新,使得它在某些基準上,儘管模型更小,但進步幅度甚至超過了 3 Pro。所以我很好奇,你們是如何看待這種張力的:一方面,短期和中期存在一個極其豐富的改進空間;另一方面,我們是否需要為未來做出一些“根本性”的新下注,去爭取真正通向 AGI 的突破?還是說,其實我們可以沿著現有範式繼續推進,只要不斷踏實地做創新,就足夠了?不知道這個問題是否引起你們的共鳴,誰願意先來回答?Oriol Vinyals我先來吧。Logan KilpatrickOriol,也許你可以順便解釋一下你常說的“drastic research(激進式研究)”是什麼意思。Oriol Vinyals好的。關於“drastic research”這個詞,其實挺有意思的,甚至有點“署名歸屬不清”。這是我和 Ilya 在 Brain 時代的一次討論,他說是我發明的,因為我當時說“這是一個非常 drastic 的想法”,但我記得這個詞是他先用的。總之不重要。它的意思其實很簡單:不是只做增量式思考,而是更超前地思考——真正需要發生什麼,才能帶來質變。當然話說回來,當一支非常強的團隊把大量增量改進做到極致時,這些改進是會疊加成巨大進步的。Gemini 就是一個例子,但對我來說更“極端”的例子其實是 AlphaFold。那個項目多年裡幾乎沒有發論文,而是持續打磨架構、訓練配方和每一個細節,始終圍繞著一個大目標前進。回頭看,AlphaFold 的成功其實是大量技巧和“深度學習工程細節”的積累,並不一定依賴某個突然出現的、極端顛覆性的技術。Transformer 當時已經存在,本身就是一個非常強的架構。當然,Noam 可以更詳細地講 Transformer。至於 AGI 到底需要什麼,我認為嚴格地不斷完善現有配方,也有可能就已經足夠。資料是存在的,潛力也在那裡。但與此同時,我們也不能排除未來會出現真正的“巨大躍遷”。我個人的判斷是:當前階段,最大的突破空間很可能在後訓練。當然,我們三個人的看法未必完全一致。不過,作為一個大型公司和大型項目,我們可以同時在多個方向下注,這本身也是我們的優勢。最後,關於“技術負責人”這個角色,我想補充一點:我們很大一部分工作,其實是篩選。團隊裡每個人都非常聰明、非常有創造力。很多時候,我們並不是提出想法的人,而是判斷那些想法最有前景。並不是“我們提出所有想法,別人來執行”,而恰恰相反。我想澄清這一點,給可能對我們日常工作有不同想像的朋友。我提名 Noam 接著講。Noam Shazeer謝謝 Oriol。確實,這是一個非常複雜的組合問題。有大的突破,也有小的突破。關鍵在於:它們可以正交疊加,而且不會引入過多技術複雜性,這樣我們才能不斷繼續往上疊。你可以粗略地想像:也許一個“大突破”能給模型增加 1 個 IQ 點;一個“小突破”只能增加 0.1 個 IQ 點。但只要我們持續把這些疊加起來,進展就會非常巨大。至於下一個“超級大突破”會不會出現?老實說,我覺得是 50/50。但我們確實在很多方向上都看到了大量創新:後訓練是重點,但預訓練、模型架構、資料、下游應用等方向也都在持續推進。Jeff Dean我認為,保持一個風險組合非常重要。一部分是更長期、更高風險、可能成功也可能失敗的想法;另一部分是希望能進入下一代 Gemini 模型的、相對短期但同樣重要的工作。後者往往理解得更清楚,需要通過實驗進一步驗證,它們也許只能帶來 1 分或 0.1 分的提升。但當你把很多這樣的改進疊加起來,就能實現代際飛躍。與此同時,我們也必須持續押注那些可能徹底改變現有範式的新方法。在 Gemini 項目啟動之前,大概在 2018 年左右,我們開始意識到:為不同任務分別訓練一大堆模型,可能並不是正確的方向。於是我發起了 Pathways 項目,其核心目標是:一個模型,能泛化到數百萬個任務能處理多模態輸入和輸出模型不是完全稠密的,而是稀疏啟動的圍繞這三個目標,我們不僅在模型上做探索,也搭建了底層的軟體基礎設施,以支援這種“稀疏、啟動方式很奇怪”的模型規模化訓練。實際上,今天 Gemini 使用的正是 Pathways 這套基礎設施。這三個目標,今天基本已經在 Gemini 的多個版本中實現了:一個模型可以做數百萬件事,強多模態,並且在最新版本中大量採用稀疏啟動。所以,設定五年期目標,然後一步步朝它們推進是非常有價值的。不是五年什麼都不做,而是沿途不斷取得階段性成果。現在,我們腦子裡也已經有了關於未來五年的類似藍圖:下一步模型能力該如何演進。程式碼、推理和數學已經被“擊穿”,下一步是開放式任務Logan Kilpatrick太棒了。Jeff,也許我們可以線下聊聊,把“未來五年的完整清單”拿出來看看。Noam 和 Jeff 都提到了一個點:模型能力在很多維度上都在持續提升,可能是某個評測的一兩個百分點,也可能是更細微的改進。但與此同時,我們也看到某些領域在 6 到 12 個月內被迅速“吃穿”了。比如程式碼、推理、數學。年初時,“Humanity’s Last Exam(HLE)”這種 benchmark,最強模型的得分還是個位數百分比;現在已經出現了 50% 以上的模型。程式碼領域的 AIM benchmark 幾乎已經被刷到接近 100%。我很好奇:你們覺得這種趨勢會持續嗎?還是說,程式碼、推理、數學這些領域,本身就有某些特性,使得進展會特別快,而其他領域(比如生物學)就沒那麼容易?Noam Shazeer我先說說程式碼吧。我覺得大家已經意識到程式碼領域極其有價值。可能我們作為工程師有點“近視”,因為它直接幫助了我們自己。但說實話,我本人就非常感謝 Gemini 在加速我的程式設計工作。而且這不僅是“我們覺得有用”,而是程式碼能力可以被用於建構極其高價值的東西,比如繼續建構 AI 本身。Jeff Dean我再補充一個關於數學的例子。兩年前,模型在 GSM8K(中學數學題)上都表現得很吃力,比如:“Fred 有 5 隻兔子,從兩個朋友那裡各拿到 1 隻,現在有幾隻?”而現在,我們已經有模型能在 IMO(國際數學奧林匹克)這種難度極高的競賽中拿到金牌。這充分說明:後訓練和強化學習在可驗證領域(如數學和程式碼)裡非常有效。原因在於:在這些領域,我們可以生成候選答案,並且明確地驗證對錯。數學可以用定理證明,程式碼可以運行、編譯、跑單元測試。而真正的挑戰在於那些“模糊領域”:比如生物問題,或者“幫我規劃一次舊金山旅行”這種開放式任務。這些問題沒有清晰的獎勵函數或對錯判斷。我認為,未來幾年一個重要方向就是:如何讓這些開放式領域的進展,像數學和程式碼一樣快。Flash版本:相比智能,速度快也很重要Logan Kilpatrick這也讓我聯想到當前的 Flash 時刻。顯然,蒸餾已經非常成功。我們有一個極其強大的“教師模型”,然後把能力蒸餾到 Flash 這樣的更小模型中。Oriol,我很好奇你怎麼看這個問題:在速度、效率、成本和智能之間做權衡時,我們的心智模型是不是Pro 模型完全不做妥協,反正以後可以再蒸餾?在多條研究主線平行的情況下,Pro 的決策是否最終決定了 Flash 能達到的上限?比如現在的 Gemini 3 Flash。Oriol Vinyals這是一個非常好的問題。回到 Gemini 項目最初的設計,Jeff 可能還記得最早的那些幻燈片:從一開始我們就明確,Gemini 會同時有兩個運行點:一個是:最大智能,不做任何妥協另一個是:更強可部署性,但不追求絕對前沿智能這種劃分方式非常有幫助,而且我認為短期內不需要改變。但現實發生的事情是:一代一代下來,新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。也就是說,在固定模型規模或延遲條件下,智能水平在持續上升。當然,在最大規模下,Pro 仍然會在某些 Flash 難以觸及的能力上保持領先。這最終變成了一個使用者問題:你到底需要什麼?很多使用者可能會選擇 Pro,因為他們不想每次都猜“這個問題 Flash 行不行”。與此同時,我們也把蒸餾這件事做得非常成熟了。我和 Jeff 經常提醒大家,這其實是一篇當年被拒稿的論文,但它一次次證明了自己的價值。我認為,兩種模型之間的差距不一定會變成 0,但很可能會小到一個程度:Pro 的主要作用,就是用來“生成”Flash。當然,我們可能仍然希望把 Pro 直接交給某些使用者。但從長期來看,能以最低成本提供前沿智能,是一個非常理想的狀態。老實說,隨著 Gemini 3.0 的進展,我們已經離這個目標非常接近了。這真的非常令人興奮。Jeff Dean我補充一點。我們也在做端側模型,比如用於 Pixel 手機等裝置的模型,這類場景會有額外的約束,比如記憶體規模等。我認為延遲作為模型質量指標被嚴重低估了。能夠在極低延遲下,依然具備很強推理能力、可以處理複雜問題的系統,是非常非常重要的。延遲可以從不同層面來最佳化:一方面是模型層面的最佳化,通過架構設計讓模型天然更快;另一方面是硬體層面的決策,讓某些模型在未來的硬體平台上運行得特別高效。延遲和推理階段算力的另一個關鍵意義在於:它讓你可以在固定的延遲預算內,把模型“變得更聰明”。如果模型本身快 5 倍,你可以選擇:直接快 5 倍給出答案;或者讓模型“多思考一會兒”,得到更好的答案,同時仍然比原來快 2.5 倍。如果你有非常強大的硬體,再配合通過蒸餾得到的、輕量但能力依然很強的模型,這是一個必須持續投入的重要方向。Noam Shazeer我想補充一點。如果我們真的能做到這樣,其實是一種非常理想的工作方式:在訓練 Pro 模型 時,儘量不去在意推理性能,專注於智能本身;然後在 Flash 模型 上,重點最佳化延遲、成本和吞吐量。這讓我想起我大學時的一位電腦教授,杜克大學的 Owen Astrachan。他常說一句話:“先讓它跑起來(make it run),再讓它正確(make it right),然後讓它快(make it fast),最後讓它小(make it small)。”這基本就是軟體開發和偵錯的順序。而現在在模型上似乎發生了類似的事情:先讓模型能跑、再讓它聰明、再讓它快、再讓它便宜。看起來,很多“老智慧”仍然在發揮作用。Jeff Dean我很喜歡這個說法。確實,不同的使用場景需求差異很大:有些場景追求絕對最好的質量,並不太在意延遲;還有很多場景需要更快、更便宜的模型,用於高頻、規模化的使用。這正是我們常說的帕累托前沿:我們希望給使用者提供多個選擇。理想情況下,使用者最好不用太糾結:“這個請求我該用 Pro,還是 Flash?”但同時,提供一個連續的選擇區間,我認為是非常有價值的。Logan Kilpatrick完全同意。我可以分享一個具體例子:我們在 AI Studio 裡針對 vibe coding 這個用例,悄悄做了一些 Flash 模型和 Pro 模型的對比測試。結果很明顯:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。我昨晚還看到一條評論,有人說自己以前一直是“永遠用最聰明的模型、願意等待”的那一派,這點也呼應了你剛才的觀點,Oriol。但在用了 Gemini 3 Flash 之後,他重新評估了這個立場,因為迭代速度實在太快了,在很多情況下,那怕犧牲一點點智能也是值得的。Jeff Dean是的。其實在 Google 非常早期的時候,我們就極度重視搜尋結果頁面的響應速度,因為我們知道:低延遲是一種極其令人愉悅的使用者體驗。搜尋越快,人們就會搜得越多。Oriol Vinyals還有一個很直觀的現實是:我們依然處在人類在環(human-in-the-loop)的階段,所以我們並不會對等待和延遲免疫。另一個非常令人興奮、而且即將到來的應用場景是機器人。在機器人領域,你需要模型去控制和操作真實世界的裝置,這裡有物理層面的硬約束。我非常確信,對小而強模型的投入只會持續增加。我們對目前的進展本身也感到非常興奮。模型並不缺“聰明”,缺的是“持續學習”Logan Kilpatrick回到我們之前關於“面向未來的技術賭注”的討論,最近大家也談了很多自我改進、持續學習之類的話題。在不洩露任何“秘方”的前提下,我很好奇:這些方向在 Gemini 裡更多是偏研究探索,還是已經開始進入產品或工程視野?目前整個領域大概處在一個怎樣的成熟度區間?Oriol,你怎麼看?Oriol Vinyals這是一個非常“老派深度學習者”的問題。從歷史上看,神經網路的發展中,有些地方一直讓我覺得不夠優雅、也不夠合理。比如課程學習,我們現在是把各種難度的資料混在一個 batch 裡訓練模型,而人類學習通常是先學簡單的,再學困難的。這是一個我們做過一點、但遠遠不夠的方向。另一個多年來一直困擾我的問題是:我們訓練完模型、凍結權重、然後部署,部署後就再也不學習了。AlphaFold 不會從使用者那裡學習,AlphaGo 也不會從自己下過的棋局中繼續學習。至少在權重層面,這些系統在部署後是“靜態的”。這些顯然都是非常深層次、非常重要的改進方向。隨著我們逐漸接近 AGI,你會自然期待持續學習、情境學習這類能力出現。舉個例子,Demis 很喜歡和模型下棋。模型其實應該意識到:“我下得還不夠好。”然後它應該自己花一周時間專門學習國際象棋,再回來對 Demis 說:“我準備好了。”然後擊敗他。這裡有大量令人興奮、同時也是經典的開放問題。這說明它們不會容易,但我相信我們會做到。Jeff Dean順著持續學習這個話題說一句,其實預訓練本身就有點“反直覺”,至少和人類學習方式相比是這樣。現在的做法是:我們隨機初始化一個模型,把它“綁在板子上”,然後把海量文字、圖片、視訊流式地灌給它。最後再說:“好了,你現在可以開始在世界裡行動,學數學、學程式設計了。”這種方式下,每個 token 所包含的資訊密度其實很低。如果模型能在環境中採取行動、觀察後果、主動決定下一步關注什麼:比如它想學棋,就主動去讀棋譜;想學微積分,就去找相關內容——那會更像人類的學習過程。這是一條非常值得作為長期技術賭注去探索的方向。Noam Shazeer我並不是要否定“大規模流式訓練”。我們不僅僅是在把資料流過模型,而是讓模型對每一個 token 都做下一詞預測,而且規模是兆級 token。一個人一生可能只接觸到十億等級的語言 token,但通過預測別人接下來要說什麼,人類確實能學到很多東西。我們給模型提供的資料量是人類的成千上萬倍,這當然極其有價值。但我也同意 Jeff 的觀點:如果我們能把大量計算資源集中投入到最重要、最有價值的方向,無論是治癒癌症、建構程式設計智能體,還是其他重大問題,那會非常有意義。這也是為什麼我贊同 Oriol 的判斷:未來很多大的進展,很可能來自後訓練階段。Logan Kilpatrick我很喜歡這個結論,感覺我們兩種方式都需要。某種程度上,人類本身就“繼承”了進化過程中形成的生物學先驗,而大規模 token 流式訓練,可能只是一個很粗糙的代理。Jeff Dean是的。正如 Noam 說的,大規模流式訓練已經被證明非常有效,我完全不想否定它。但另一方面,人類一生看到的 token 數量遠少於模型,卻能達到很高的能力水平。這說明,可能存在一種比現在高 1000 倍甚至 10000 倍的資料效率學習方式。我認為關鍵在於:人類會思考行動的後果、觀察反饋,這種方式更偏向強化學習,而不僅僅是預測下一個 token。總結:多模態進展、超長上下文、通用模型能力提升Logan Kilpatrick太棒了。我們時間差不多了,最後想問一圈:回顧 Gemini 過去兩年的發展,有沒有那些出乎意料的地方?不管是進展比預期快的,還是慢的,或者某些意想不到的結果。Jeff Dean整體來看,最讓我欣喜的是多個方向同時取得進展。視訊和圖像生成能力的提升尤其明顯,而且它們越來越多地和主模型融合在一起,讓模型可以進行視覺推理。你可以看到生成結果,然後說:“不對,我想要的是這個圖像的一個小改動。”這種互動非常自然。另一個我認為被低估的能力是超長上下文。當你把大量資料放進上下文窗口時,這些資訊對模型來說是非常“清晰”的,它們以 KV cache 的形式存在。相比之下,訓練資料已經被“攪拌”進數十億參數中,對模型來說是模糊的。我覺得長上下文能力還遠沒有被充分利用。我們正在探索的一條方向是:如何讓使用者感覺自己彷彿擁有對數十億甚至兆 token 的注意力能力,就像把大半個網際網路、海量視訊放進了上下文窗口裡。Oriol Vinyals對我來說,最意外的是:我們曾經有一個專門做競賽程式設計的項目 AlphaCode,是高度特化的系統。但現在,用通用模型,我們卻在數學和程式設計競賽中拿到了金牌,而且沒有為這些領域做特別定製。這一點非常讓我驚訝。我當時反覆提醒團隊:這必須是模型本身的能力,而不是某個臨時分支、達成目標後就丟掉的東西。結果他們真的做到了。這可能是過去幾年裡最“激進”的驚喜。Noam Shazeer從理性上說,我並不完全驚訝——早在 2018、2020 年,就能預見模型會越來越聰明。但從情感上說,看到這一切真的發生了,還是非常震撼。你現在可以直接跟模型對話,讓它幫你算數學、寫程式碼,而且有成百上千萬的人對 AI 感到興奮。這真的非常有趣,我也非常期待接下來會發生的事情,希望它能給世界帶來更多正向影響。Logan Kilpatrick太完美的結尾了。Jeff、Oriol、Noam,非常感謝你們抽時間參與。也感謝大家的收聽,希望你們喜歡新的 Gemini 模型。如果有問題或反饋,隨時聯絡我們。我們會繼續“推石頭上山”,給大家帶來更好的模型和產品。希望明年初還能和大家一起迎來更多有趣的發佈。 (51CTO技術堆疊)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
Nano Banana Pro 太火了,但生成的圖怎麼修改?
Nano Banana Pro 最近實在太火了,我看網友們都玩瘋了。我的評論區也炸了,其中一個問得比較多的問題是:生成的圖能修改嗎、怎麼修改?,所以這期就來聊聊到底怎麼改這些 AI 生成的圖。我向來有問必答,以解決網友痛點為己任,所以這期就來聊聊到底怎麼改這些 AI 生成的圖。01 在 Gemini 裡硬改?有點難大家應該知道,Gemini 裡面其實就有修圖,比如這張圖用 Gemini 生成後要修改:圖:Gemini 生成的圖現在想把 GUCCI 改成Nano Banana,我只需要直接說:把“GUCCI”換成“Nano Banana”,就可以了。圖:通過 Gemini 修改文字在一個連續的對話裡面,我們可以直接這樣操作,省去了下載再上傳的麻煩。但問題來了: Gemini 沒有“引用原圖”的功能。如果你聊嗨了,想修改好幾輪之前的圖,就還得乖乖下載再上傳。有點麻煩,但勉強能用。真正崩潰的是,這種方式只能做最最基本的操作。那怕需求稍微複雜一點點,它立刻就崩給你看。比如我想給她換雙指定的鞋子:圖:通過 Gemini 替換鞋子結果它給我輸出的是圖:Gemini 替換鞋子後海報翻車了鞋子是換了,但海報也毀了。其實目前的 AI 聊天式修圖大多如此。 雖然號稱“一句話修圖”,但本質上,這種方式不叫修圖,是重新生成一張圖。效果好不好?全靠“抽卡”運氣。02 終於找到了“手術刀”級的修圖難道沒有更好的方式嗎? 直到我試了下面這個操作:圖:在 Lovart 裡面精準修圖修改之後得到這張圖,效果可以用完美來形容。圖:Lovart 完美的完成了修圖這裡的操作可謂非常精準。注意看,我先選擇了要修改的部分,它自動識別並分離了元素。它精準地識別出了“鞋子”和“腳”,我直接勾選鞋子。然後選擇要替換的鞋子,這裡甚至能智能細化到“運動鞋”還是“鞋面”。圖:Lovart 裡面可以精細的選擇要編輯的對象也就是說,它本來只是要換個鞋子,結果這裡甚至能只換個鞋面!這麼牛逼且獨一無二的工具,必須再次安利給大家,那就是 Lovart。(https://lovart.ai)03 Touch Edit:這才是真正的生產力Nano Banana Pro 有多強,毋庸置疑。但如果加上一個同樣強的編輯工具,才能真正讓設計起飛,才叫真正能“幹活”。Lovart 這個 Touch Edit 實在是強大到離譜,而且操作巨方便。按住 ⌘ 鍵(Windows 用 ⌃),然後在任何需要修改的地方點選,它就能把那個地方標記好。圖:在 Lovart 中選擇編輯對象而且它會自動識別和分離那地方的元素,這樣我可以進行非常精細的修改。圖:在 Lovart 中選擇編輯對象更牛逼的是,我可以同時標記 N 個地方,然後一次把他們都改完。圖:在 Lovart 中一次編輯多個元素我只能說,這也太絕了!這理解能力簡直離譜!但你以為這就結束了?這才剛剛開始……這玩意不只讓我可以在單個圖裡面修,還可以跨圖編輯,這才是真正的降維打擊。圖:在 Lovart 中跨圖片編輯操作的結果是,得到一張這樣的圖:圖:跨圖片編輯的結果圖超級精準。人物形象完全沒變,墨鏡也完全移植過來了。 它的理解力,就跟人類設計師一樣,可以進行多種複雜的需求理解。比如下面這種操作,我覺得人類設計師都要思考一會兒,但它輕鬆搞定:圖:超複雜的跨多圖修改它就像人一樣把任務分解,做完第一步生成一張圖,然後做第二步,最終得到這樣的圖:圖:跨多圖修改的效果這個簡直無敵了。可以看到,這裡的編輯可以跨多個素材檔案,我可以分別使用每個素材的不同元素、構圖、色彩等等。如果沒有這樣的可視化操作介面,光在聊天框裡巴拉巴拉,根本無法完成。還有一個黑科技,之前也提過,就是可以把一張圖的各元素直接“炸開”,變成一個個的圖層,然後直接編輯它們!圖:Lovart 的元素分離並編輯分離後的元素另外告訴大家一件事:在 Lovart 裡面用 Nano Banana Pro 生成的圖都沒有水印!!04 總結有了 Lovart 這樣的工具,基本上可以做到隨心所欲的修圖。 而且,Lovart 上面幾乎整合了所有優秀的文生圖、文生視訊模型,一個訂閱就可以使用全家桶。並且我今天發現,他們居然因為黑五首次打折,會員最高 4 折。(好像到月底截止)我最近其實都是通過 Lovart 在使用 Nano Banana Pro,因為 Gemini 每天的額度根本不夠用。最良心的一點是:Nano Banana Pro 在這上面 365 天內不消耗積分。 🤣當然,Basic 及以上會員期間可以免積分使用 365 天的不只是 Nano Banana Pro,其他比如 Nano Banana / Seedream / Midjourney 這些頂尖模型也一樣。 (AI范兒)
李飛飛最新長文:AI很火,但方向可能偏了
AI很會說話,但還不會理解世界。前幾天,Google的Gemini 3 Pro發佈,朋友圈瞬間刷屏。很多人都在感嘆:Google一出手,就知有沒有。下一代模型,是不是參數更多?能支援更長的上下文?照這麼發展下去,是不是真的要實現AGI(通用人工智慧)了?但是,著名電腦科學家、美國國家工程院院士、史丹佛大學教授李飛飛卻不這麼認為。11月10日,她就發佈了一則長文,系統闡述了她對目前AI大模型的看法。總結一下,大概是:目前AI卷參數,卷演算法的方向,可能跑偏了。模型不理解世界,就實現不了真正的智能。為什麼這麼說?什麼又叫“理解世界”?這和我又有什麼關係?系統整理了一下我的理解,和你分享。大語言模型,就像讀了很多書,但沒出過門的秀才你一定知道ChatGPT,或者Google的Gemini。你也一定用過DeepSeek、豆包。這些產品背後的核心技術,都是大語言模型(LLM)。大語言模型做的事情,簡單來說,是“預測下一個詞是什麼”。你問它,“床前明月光”,它就能預測,後邊幾個詞大機率是“疑是地上霜”。靠著這種看似簡單的“接茬”能力,在吃下了大量資料之後,大模型已經進化到了驚人的地步。它能通過律師資格考試,也能做複雜的奧數題。那,這樣子下去,是不是很快就有能自主學習、完成任務的通用人工智慧了?不一定。雖然語言大模型看上去很厲害,但如果問它一些特別簡單的問題,比如,這輛車離那棵樹有幾米?這個箱子能塞進後備箱嗎?它卻大機率會瞎蒙,還會出現“杯子鬆手後飛上天”的情況。它們雖然懂物理公式,卻不懂物理常識。對此,李飛飛打了個比方。大概意思是,大語言模型,就像黑暗中的秀才(wordsmiths in the dark)。想像一下。有一位秀才,在一間黑屋子裡,讀過一萬本關於蘋果的書。他知道,蘋果通常和“紅”、“甜”、“圓”出現在一起,他知道,蘋果的化學分子式,牛頓被蘋果砸中的故事。如果讓他寫一篇關於蘋果的論文,他寫得不比專家差。但是,如果你把一個真的蘋果遞到他手裡,他卻不知道這是什麼。今天,語言大模型的“智慧”,本質上靠的是語言的統計規律,而並非紮根現實。這也解釋了,為什麼你的AI助手,動不動就會“胡說八道”。因為,如果AI只遵照語法通順,它完全可以認為,太陽會從西邊升起。即便這在物理世界裡,不可能發生。它讀了萬卷書,卻從未行萬里路。語言可以瞎編,但物理世界不會撒謊那怎麼辦?李飛飛說,這就要讓AI,掌握“空間智能”了。舉個例子。喝咖啡。你的大腦在這一瞬間,會處理很多資訊。你的眼睛,要判斷杯子和嘴邊的距離;你的手部肌肉,要根據杯子的重量,精確調整抓握的力度;你的皮膚,要感知杯壁的溫度,防止燙傷;你的手腕,要配合身體的傾斜,保持杯口的水平,防止咖啡灑出來。在這個過程中,你用到語言了嗎?你有沒有在心裡默念,把肱二頭肌收縮30%,手腕向左旋轉5度?沒有。整個過程,靠的是感知、想像、行動。這種“不通過語言,理解物理世界,和物理世界互動的能力”,就是空間智能。而李飛飛也認為,有了空間智能加持的AI,才會通向真正的,智能。因為智能的本質,是能在不確定的世界中持續預測、行動、達成目標。這不能靠大腦憑空產生。舉個例子。嬰兒是怎麼知道因果關係的?他坐在地上,把積木推倒,積木嘩啦一下散落在了地上。他覺得好玩,又推了一次。又是嘩啦一聲。一次次的物理互動中,他逐漸建立了一條神經連接:把積木推倒,必然導致“嘩啦”一聲。邏輯的雛形,因此開始。再舉個例子。沃森和克里克,是怎麼發現DNA雙螺旋結構的?要知道,當時他們手裡,只有一張像是模糊的“X”的照片。靠這張照片,推導不出DNA結構。沒辦法,他們只好像搭積木的小孩一樣,用金屬棒和鐵絲,試圖復現DNA的空間結構。直到某個瞬間,他們把模型轉到雙螺旋的角度,咔嚓一聲,一切都對上了。那一刻,他們沒有說話,但他們看到了生命的真相。偉大的發現,往往先在空間中成型,才被翻譯成語言。所以,李飛飛才會說:“看”和“動”,不是低級的本能,而是高級智能的基石。大自然花了 5 億年進化“視覺”,只花了最後幾萬年進化“語言”。因為感知世界,遠比描述世界要難得多,也重要得多。語言可以瞎編,但物理世界不會撒謊。AI的未來,或許是從預測下一個詞,到預測下一幀世界什麼是,預測下一幀世界?舉個例子。你手裡拿著一個玻璃杯,然後鬆開了手。現在,你的腦子裡是不是立刻就預測到了:杯子掉下去,砸在地上,摔碎了?你不需要等它真的碎,你的腦子已經預測到了。這就是“預測下一幀世界”。擁有了這個能力,AI不需要讀萬卷書來記住“火是燙的”,模擬與世界的互動,就能推匯出“手伸進火裡->皮膚燒傷”的物理必然性。預測下一個詞,遵循的是“語法邏輯”;而預測下一幀世界,遵循的是“物理邏輯”。這就是李飛飛認為,掌握空間智能的AI該做的事情。她把它稱為,世界模型。之前,如果你讓AI畫一個“凌亂的房間”,它會生成一張像模像樣的圖片。但是,你沒辦法看看桌子底下有什麼,把地上的髒衣服撿起來。但在世界模型生成的房間,你可以蹲下來看床底、拉開抽屜。因為房間裡有重力、有光影,還有遮擋關係。這和目前的AI視訊,也有本質區別。因為AI視訊,只是“看上去理解了世界”,本質上還是在黑屋子裡,預測下一個像素。比如,吃漢堡。雖然AI視訊可以預測到,當人的嘴到了漢堡上,漢堡大機率會變形、會缺少一塊,但它並不理解,漢堡為什麼是軟的,以及,人咬下一口之後,那一塊漢堡其實是到了人的嘴裡。它也沒辦法換個位置,看看漢堡的面包底是不是焦了。預測下一幀世界。理解了。可是,這要怎麼做到?語言,說白了就是一個詞接著一個詞,是一維的序列訊號。但世界是三維的,甚至還要加時間維度。重力決定了蘋果怎麼掉,原子結構決定了光線怎麼反射。要預測下一幀世界,就得讓語義、幾何、物理規律保持一致,這比處理語言複雜太多了。李飛飛也很坦率,聊了幾個他們團隊還在死磕的方向。比如,找公式。大語言模型之所以成功,是因為找到了一個簡單的任務函數:預測下一個詞。世界模型,也能找到這樣一個簡單優雅的公式嗎?目前還需要努力。比如,找資料。要訓練具有空間智能的世界模型,就得找到海量空間資料。去那找?他們正在開發一種,從網際網路上的二維視訊裡,提取空間資訊的演算法。過去的AI,是在用機率“猜”下一個詞;未來的AI,或許能用物理“算”下一幀世界。精確地把“想像”變成“真實”,也許是下個時代最大的機會之一李飛飛的World Labs,已經做出了一款叫Marble的產品。具體網址:https://marble.worldlabs.ai/。只要你提供一句描述,一張照片,它就可以生成一個可以探索的空間。我試著上傳了一張我們新辦公室的照片,沒想到還真能行。(圖片來自:Marble)是不是還挺有意思的?幾秒鐘內,它不僅識別出了裡面的桌子、椅子,還腦補出了空間位置。雖然還很粗糙。可能是我只上傳了一張照片的原因。那麼,如果未來的AI真的如李飛飛所說的那樣,有了空間智能,又意味著什麼?首先,對於普通人來說,是AI進入現實社會,所帶來的極大便利。一旦空間智能成熟,離機器人走入家庭,就真的不遠了。它能理解“花瓶是易碎的,要繞著走”;能理解“地上有水,要先拖干”。讓機器人幫你疊衣服、整理雜亂的玩具房、甚至照顧老人起居,將變成現實。甚至再進一步,讓奈米機器人在血管裡送藥。而當AI基於空間智能,掌握了從現實中抽象出規律的能力,它們或許,就能像牛頓和愛因斯坦一樣,擁有“科學家的直覺”。從而,真正發現規律、進行創新。接著,對於創業者來說,加持空間智能的AI,可能意味著一些新的機會。比如,真正“可控”的視訊生成。現在的視訊AI(比如 Sora),雖然厲害,但還是有點“抽盲盒”。它可以生成一隻貓。但你很難控制貓的走位、光影的角度。這對商業廣告、電影製作來說,就有點難操作。甲方要求臉必須再轉15%,你不能說“AI 隨機生成的我改不了”。李飛飛在訪談裡就舉了一個例子。他們和索尼的一家虛擬製作公司合作,用了Marble搭建場景,可以自由地選擇拍攝角度,生產效率提升了40倍。比如,做一些“想像成真”的ToC產品。例如,裝修。拍一張毛坯房的照片,說改成北歐風,暖色調。幾秒鐘後,你就可以得到一個可以到處走,還能修改沙發位置的虛擬樣板間。例如,3D相簿,給一張老房子的照片,就能得到一個3D空間。你可以看看桌上的擺設,看看牆上的掛曆,再次回到小時候。李飛飛提到了一個讓我特別意外的場景:心理治療。有團隊找上門,表示想用這個技術,來治療“恐高症”。通過瞬間生成的虛擬懸崖,就能幫病人一步步克服恐懼。又比如,賣合成資料,給做機器人的公司。本質上,這就是給機器人,開了一間學校。你不需要造機器人,你只需要生產特定領域的“教材”。比如,專門生產“怎麼修汽車”的資料,賣給修車機器人公司;專門生產“怎麼做手術”的資料,賣給醫療機器人公司。精確地把“想像”變成看得見、摸得著的“真實”,也許是接下來最大的機會之一。好了。總結一下。為什麼AI現在這麼厲害,但還是會犯一些低級錯誤?可能因為,它沒有真正理解世界,而只是在統計規律中找答案。所以未來,AI的發展方向,可能要拐一下,從預測下一個詞,到預測下一幀世界。也就是真正掌握,空間智能。那,這個方向對不對?會不會通向真正的智能?我不知道。但至少,這是一個值得嘗試的方向。因為目前的大語言模型,確實遇到了瓶頸。參數越來越大,算力越來越強,但一致性,總也沒有特別好的解決方案。而且,如果這個方向真的走通了,確實會帶來一些變化。機器人可能真的能進入家庭。甚至,AI可能真的能像科學家一樣,從現實中發現規律,而不只是從資料中總結規律。當然,這一切都還很早。Marble,還很粗糙。世界模型的“公式”還沒找到,空間資料也還不夠。但至少,通往智能的那個未來,又多了幾分念想。畢竟,科技進步從來不是一條直線。繞點遠路,沒啥。 (創業邦)
Google這本68頁提示詞手冊,才是Gemini 3 Pro 的完整體「附官方內功心法」
Gemini 3 Pro 必須是最近最熱門的話題。昨天在一個大佬的留言區看到有幾個人留言說:「Gemini 3 Pro 老理解錯意思」。我想可能不是它理解不了,是我們表達得不夠清楚。如果只能推薦一份關於Gemini 3 Pro 的進階指南,我會毫不猶豫地選擇這篇:Google官方68 頁提示詞工程手冊。它解決了一個最核心的問題:如何讓AI 精準理解你的意圖,不再「胡言亂語」。很多時候,你覺得Gemini 3 Pro 不好用,其實是因為你沒掌握那把「鑰匙」。這份文檔裡藏著讓AI 智商翻倍的秘密。我為你提煉了手冊中的十大核心心法。文末附電子書正本下載地址,建議先馬後看。十條最重要的提示工程“心法”1. 展示範例:告訴模型“照這個樣子做”(One-shot / Few-shot)解釋: 這是最重要、最強大的教學工具。與其只給模型指令,不如直接給它看你想要的格式和風格的完成範例。模型會模仿你提供的模式來產生結果。操作:提供一個(單次提示,One-shot)或多個(幾個提示,Few-shot)高品質的輸入/輸出範例。注意:如果你在做分類任務(例如:情緒是「正面」還是「負面」),請務必打亂範例中類別的順序,防止模型只是記住順序,而不是真正學會分類。2. 保持簡潔明了:要有明確的訊息解釋: 提示應該簡潔、清晰、易於理解。如果提示對你來說已經很困惑了,那麼模型也可能會感到困惑。避免使用複雜的字詞或提供與任務無關的不必要資訊。操作:使用描述具體行動的動詞來指導模型(例如:提取、分類、生成、總結)。不好: “我現在在紐約,和兩個三歲的孩子一起,告訴我一些好地方。”更好: 「扮演一名旅行向導。描述一些適合三歲孩子遊玩的紐約曼哈頓的好地方」。3. 具體說明你想要什麼結果解釋: 對模型的期望輸出要具體、明確。不要只給一個籠統的指令,要給出具體的細節要求,這樣能幫助模型集中註意力,提高整體準確性。操作:不: “寫一篇關於遊戲機的部落格文章。”要做: 「產生一篇3 個段落的部落格文章,內容關於5 個頂級遊戲機。文章必須是資訊豐富且引人入勝的,並以對話式的風格寫成」。4. 優先使用“要做什麼”,少說“不要做什麼”解釋: 盡量使用正向的指導性指令(告訴模型應該做什麼),而不是負面的限制(告訴模型不應該做什麼)。這與我們自己溝通的時候偏好正面指令的習慣一致。操作:指示優先: 清楚說明你想要的結果(例如:「只討論遊戲機、製造商、年份和總銷售量」)。限制次之: 限制(例如:「不要列出遊戲名稱」)僅在特定情況下使用,例如涉及安全、清晰度或嚴格的格式要求時。5. 為模型設定身份和背景(角色、情境提示)解釋: 給模型一個“人設”或“背景”,這能幫助它以正確的語氣、風格和專業知識來回答問題。操作:角色提示: 賦予模型一個身份(例如:「我希望你扮演一位幽默的旅行向導」)。情境提示: 提供與任務相關的具體背景資訊(例如:「情境:你正在為一個關於80 年代復古街機遊戲的部落格寫文章」)。這就像給演員一個劇本和角色說明,確保他們的表演符合預期。6. 引導模型逐步思考(思維鏈CoT 與回退提示)解釋: 對於複雜的任務(例如推理、數學題或程式碼生成),不要直接要求模型給答案,而是要求它「一步一步地思考」。這能提高複雜問題的準確性。操作:思考鏈(CoT):  在提示末尾加上讓我們一步一步地思考 。回退提示(Step-back): 鼓勵模型先思考一個更一般、更抽象的原則或問題,然後利用這個啟動的背景知識來解決具體的任務,從而提高洞察力。注意: 推理任務通常也可以直接告訴模型你在推理。7. 嘗試結構化輸出格式(使用JSON 或XML)解釋: 對於資料擷取、分類或排序等非創意性任務,要求模型傳回結構化格式(如JSON 或XML)的資料。操作:要求返回JSON 格式最大的好處是:它強制模型創建結構,並且可以極大地限制模型胡編亂造(限制幻覺)。如果輸出被截斷導致JSON 無效,可以使用像json-repair 這樣的工具來嘗試自動修復。8. 調整配置來控制“創造力”解釋: 提示工程不僅是寫好提示詞,還需要調整模型的「旋鈕」來控制輸出的隨機性和多樣性。操作:低溫(0 - 0.2): 適用於需要確定性、事實性或嚴格邏輯的任務(如數學題或資料擷取)。高溫度(0.9): 適用於需要多樣性或創造性的任務(如寫故事或腦力激盪)。注意:其實像Gemini ,我們日常對話時,這個是不可見也不可調整的,大模型會自己根據情況進行調整。9. 明確控制回答的長度解釋: 控制模型生成文字的長度,可以節省運算資源、提高速度並降低成本。操作:在模型配置中設定最大Token 限制。在提示中明確要求(如:「用一則推文的長度解釋量子物理學」)。10. 詳細記錄每一次嘗試解釋: 提示工程是一個迭代的過程,你需要不斷嘗試和最佳化。像科學家做實驗一樣,你需要完整記錄所有細節,這樣你才能學習、調試,並在未來再次使用。操作:記錄內容包括:提示的名稱和目標、使用的模型版本、完整的提示文字、所有的配置以及輸出結果。使用結構化的方式(如表格)來管理這些記錄,以便在模型更新或需要重新測試時,可以輕鬆追溯。資料下載《Prompt Engineering》Google官方手冊下載地址:https://www.kaggle.com/whitepaper-prompt-engineering (許良學AI)
Google發了個逆天“外掛”,要把中年男人幹失業了…
每隔一段時間黑馬就會去比較當下那些大模型比較好用。但大部分時候,大家的差距拉的並不大,我使用的時候更多的考慮還是那個比較方便。結果就在今天凌晨,Google發布了Gemini 3 Pro,據說強的一匹。本來我還有點將信將疑的,結果早上瀏覽資訊的時候,發現鋪天蓋地都是“自來水”,我就知道這事兒不簡單。出於內容創作者的好奇心和對AI工具的旺盛需求,我馬上趕到現場體驗了一波。在https://aistudio.google.com/,選擇Gemini 3 Pro就可以開用了。然後我就詞窮了…布希鴿們兒,你們AI現在都發展到這個程度了嗎?第一次覺得自己語言如此匱乏。簡單來說,這是我見過最全能最好用的大模型,即使我腦子空空啥想法都沒有,我只說一句話:我要一個xxxx,它都能給你搞出來個像模像樣的東西。例如我讓它複製一個小米汽車官網的首頁,提示字就很簡單的一句話:全程耗時不到一分鐘,我就拿到完整的HTML程式碼。這是它給我的效果:做了自動切換的效果,圖片它還專門強調了是自己生成的(所以為什麼圖片牆上是特斯拉)。PS:有素材可以直接把素材餵給它,沒有的話也可以讓它自己生成。我還讓它用類似的風格生成給法拉利也產生了一個網頁:然後,我又試了一下讓它幫我做了一個履歷作品集。把文章連結全部丟給它,簡單描述了一下我想要的風格,一分鐘左右我就得到了一個簡單的網頁——滑鼠懸停時有光影效果,點擊可以跳轉看文章內容。如果想要修改效果,也可以繼續在對話框裡調整。同樣的作品集網站我之前讓釦子也給我生成過一個,但釦子花費的時間更久,審美風格更單調,bug相對也要多一點,需要更細緻的調整。除了簡單的網站,Gemini 3 Pro還可以建構場景模型,雖然只能產生簡單的體素方案,場景和主體仍停留在像素塊層面,也看不到啥細節。但場景邏輯是符合我的描述的,互動體驗也是很絲滑的,你還可以自由滑動放大縮小查看場景的各種細節。除了這些之外,我還看到有網友讓Gemini 3 Pro做了一個公眾號封面產生器,於是我讓它也為我做了一個。它直接為我找了個免費的AI繪圖介面,這樣我不需要自己部署API,直接打開網頁輸入關鍵字就可以生成圖片,這個網頁還可以根據公眾號封面尺寸自動裁剪圖片。我試了一下,居然真的能用。就是免費的介面效果極差,本來今天還想偷個懶,看來是偷不成了。除此之外,Gemini 3 Pro復刻小遊戲也無比絲滑,我跟它說「復刻一個超級瑪利歐網頁遊戲,圖片素材自己生成」,幾十秒鐘一個簡單的小遊戲就搞定了,互動十分絲滑。我還看到X 的網友讓Gemini 3 做了個3D樂高編輯器,一次實現了使用者介面、程式碼建置和他需要的各項功能。還有網友用它產生了網頁音樂播放器、Windows的Web OS、植物大戰殭屍,無疑都能得到非常滿意的效果。而且以上黑馬嘗試所有案例,全都是Gemini 3 Pro一遍就給跑出來的,大部分內容花費的時間都不超過一分鐘。連做遊戲這種程式碼比較複雜的耗時也不過兩分鐘。我只需要口述我的需求,Gemini 3 Pro就能快速給到各種形式的內容,產生的效果取決於我的表達能力、描述的精準度和提供的素材完善程度。這效果我真的沒話說了。說是編程,感情說了半天成了語文能力的對決。Google曬出了Gemini 3 Pro的成績單,幾乎所有專案都碾壓了Claude Sonnet 4.5 和GPT-5.1。例如偵測AI 抽象推理能力的高難度測驗ARC-AGI-2,Gemini 3 Pro 以31.1% 的成績斷層領先第二名的Claude Sonnet 4.5的13.16%。還有看懂螢幕介面並操作(ScreenSpot-Pro ),和AI 在複雜長程任務和跨場景下的任務執行能力( Vending-Bench 2)方面,Gemini 3 Pro也是斷層性的領先。這件事蘋果的餅畫了快兩年了都還沒動靜,Google已經領先一步直接上桌了。這種全面的大幅度領先真的很恐怖,這意味著大部分人可以用AI搭建自己的內容,部分簡單的前端工作AI完全可以替你包圓。怪不得山姆奧特曼都跑出來恭喜Google。Google也宣佈「以整個公司的量」發布Gemini 3系列模型,包括首次在發布當天就將Gemini整合進搜尋,上線獨立APP,也推出全新的智能體開發平台。之後還有一個更強Gemini 3 Deep Think深度思考模式,正在路上。(說是還在預訓練)但對我來說,今天的體驗已經很酷了。對了,前端兄弟們,你們還好嗎?(黑馬公社)
大漲超4%!Google再創歷史新高!圖像生成模型 Nano Banana Pro上線,深度結合Gemini 3,這下生成世界了
繼前日Gemini 3推出後,GOOGLE股價創歷史新高後,今日Google股價再次大漲超4%,再創歷史新高!三個月前,來自Google AI Studio 負責人 Logan Kilpatrick 的一個香蕉表情暗示了現象級圖像生成模型 Nano-banana 出自Google,引發了軒然大波。Nano-banana,也就是 Gemini 2.5 Flash Image 模型,有多猛大家也不陌生了。無論是修復老照片,還是生成迷你手辦,Nano Banana 在圖像編輯方面邁出了重要一步,讓普通創作者也能輕鬆表達創意。我們也曾經翻遍全網,整理了 7 種體現奈米香蕉超強圖像理解生成能力的趣味玩法,感興趣的讀者可以回顧一下。就在前兩天,Gemini 3 發佈前,Logan Kilpatrick 故技重施,點燃了大家對新模型的期待。結果今天下午梅開三度。網友說:「停停」。在 Gemini 3 重磅登場後,Google的王炸模型只剩下了那支傳說級的香蕉。不出所料,就在剛剛,Google最新,最強大,最全面的圖像生成模型 Nano Banana Pro(Gemini 3 Pro Image)正式登場,掛上了「專業級」後綴的奈米香蕉,結合了 Gemini 3 Pro 的強大推理能力和世界知識,實力再次實現了飛躍。簡而言之,Nano Banana Pro 主要 Pro 在 :前所未有的控制力、完美的文字渲染效果和更強的世界知識,具備打造工作室等級的設計作品的生成能力。前所未有的控制力高解析度作為一款圖像生成模型,Nano Banana Pro 這次最直觀、最能有感的基礎能力升級,是能夠生成 2K 和 4K 的高解析度圖像。圖像像素量有顯著的提升,意味著模型必須同時在細節刻畫、畫面精度、生成穩定性、一致性以及可控性上全面升級。除此以外,Nano Banana Pro 支援了廣泛的圖像長寬比,解決了基礎款 Nano Banana 使用時很難控製圖像比例的痛點問題,尤其是在 Gemini 對話中明確要求圖像比例時,Nano Banana 仍不能生成對應長寬比的圖像。Nano Banana Pro 生成不同比例的超高畫質圖像得益於多種可用的長寬比和 2K / 4K 高解析度,Google聲稱:「作品可以直接用於任意平台,從社交媒體到印刷物料。」更強大的一致性Nano Banana 火遍全網,其中最重要的原因就在於它令人驚嘆的視覺一致性控制。舉個大家最熟悉的例子:只需上傳一張簡單的服裝圖和人物照片,再配上一兩句限制性文字指令,它就能快速精準地將元素融合,輕鬆生成風格統一、構圖自然,並且保持人物和服裝一致的 OOTD 合成照。感興趣的讀者可以看看我們這一篇報導,輕輕鬆鬆做一名時尚博主。而使用 Nano Banana Pro,你可以融合比以往更多的元素:最多使用 14 張參考圖像,保持多達 5 個人物 的一致性與相似度。讓我們簡單來看兩個實例:Prompt: Combine these images into one appropriately arranged cinematic image in 16:9 formatPrompt: A medium shot of the 14 fluffy characters sitting squeezed together side-by-side on a worn beige fabric sofa and on the floor. They are all facing forwards, watching a vintage, wooden-boxed television set placed on a low wooden table in front of the sofa. The room is dimly lit, with warm light from a window on the left and the glow from the TV illuminating the creatures’ faces and fluffy textures. The background is a cozy, slightly cluttered living room with a braided rug, a bookshelf with old books, and rustic kitchen elements in the background. The overall atmosphere is warm, cozy, and amused.效果非常令人驚訝,Nano Banana Pro 不僅可以保留參考圖片中的物體和人物特徵,更能夠理解參考圖片中的背景圖像資訊,理解光影、材質和圖像結構,深刻洞察使用者的設計意圖。那怕高達 14 張參考圖像,Nano Banana Pro 都能夠在新圖像中保留全部的細節。不管是將一張隨手勾勒的手繪草圖變成可落地的實體產品,還是把技術藍圖轉化為質感逼真的 3D 結構,Nano Banana Pro 都能幫你輕鬆跨越那道長期存在的從想像到落地的鴻溝。此外,在設計領域中,Nano Banana Pro 也可以為設計稿一鍵套入理想的視覺風格,包括品牌主視覺、潮流配色,不同材質和質感的測試效果,它都能快速生成。最終呈現的結果在所有關鍵特徵上都能保持高度統一,從電商圖到宣傳海報,從社交內容到實體包裝,毫無割裂感。相比 Nano Banana 更強的一致性控制,遠遠拓展了參考圖生成的上限,創造了更多玩法可能。更靈活的創意控制借助 Nano Banana Pro 的全新能力,高級圖像編輯不再是專業團隊的專屬 —— 真正的創意控制權被交回到使用者手中。使用者可以對畫面進行近乎「分子級」的操控:自由選取並重塑圖像任意局部區域,實現精準微調切換攝影機角度,快速生成不同視角與構圖調整焦點位置,打造更具敘事感的畫面重心應用電影工業級調色,一鍵改變視覺氣質重塑場景光照,從白天到夜晚、從硬光到散景過渡皆可瞬時完成這些能力讓 Nano Banana Pro 從簡單的圖像生成工具,躍升為一個能夠支援創作者進行分鏡級、視覺導演級創作的圖像引擎。視訊中也簡單演示了從一張圖像,到天氣的重塑,最後使用 Veo 3 模型生成極具電影風格的視訊的全過程。下面兩個示例不僅能夠展示 Nano Banana Pro 強大的創意控制能力,也展開了結合首尾幀視訊生成的全新可能。Prompt: change lighting of this portrait to from the left, diffused and softPrompt: Focus on the flowers文字與知識大師輕鬆拿捏文字生成我們知道,在圖像生成模型中,生成文字一直是一個難點。Nano Banana Pro 正是在這一痛點上實現了再一次迭代:它具備非常強大的文字生成能力,能夠生成包含更準確、清晰可讀、多語言文字的視覺內容。Nano Banana Pro 是生成圖像內可讀文字的最佳模型,無論你需要的是一句簡短標語還是一整段較長文字,都能夠清晰,完整,合理的生成,並且與圖像內容完美融合。Prompt: make 8 minimalistic logos, each is an expressive word, and make letters convey a message or sound visually to express the meaning of this word in a dramatic way. composition: flat vector rendering of all logos in black on a single white backgroundPrompt: Create an image showing the phrase "How much wood would a woodchuck chuck if a woodchuck could chuck wood" made out of wood chucked by a woodchuck.現在我們可以在視覺設計或海報中建立帶有更多細節的文字,具備更廣泛的紋理、字型與創意樣式。另外,憑藉 Gemini 的增強多語言推理能力,我們可以通過 Nano Banana Pro 生成多語言文字,或對內容進行本地化與翻譯,從而實現全球化擴展,或更輕鬆地與朋友和家人分享內容。就比如將飲料瓶上的英文翻譯成韓語,並且無縫的合成在原文字的位置,還能保證超高品質的細節和字型風格。Prompt: translate all the English text on the three yellow and blue cans into Korean, while keeping everything else the sameGemini 3 賦能知識庫由於和 Gemini 3 大模型的深度融合,可以借助 Gemini 3 的高級推理,Nano Banana Pro 不只是生成漂亮的圖像,它還能幫助你建立更有用的內容。Nano Banana Pro 將龐大的知識庫融入生成過程,能夠比以往的圖像生成模型產出更具事實精準性的視覺內容。此外,在啟用相關能力時,通過與 Google 搜尋的檢索基座相結合,模型可以連接到即時的網頁內容,生成基於最新資料的輸出。於是我們可以獲得準確的解釋內容,進一步理解一個事實主題,並且生成語境豐富的資訊圖和示意圖。這對於需要精確呈現現實資訊的應用場景尤為重要,如生物學示意圖或歷史地圖。Nano Banana Pro 生成的製作荳蔻茶的教學圖片更進一步,Nano Banana Pro 還具備根據內容自動生成 PPT 頁面的能力無論使用者提供的是一段文字、幾條要點,還是一篇長文,模型都能自動理解內容和結構,生成對應演示文件圖像。實現了「從文字到展示」的流程自動化與智能化的實用進步。隱形水印,快速驗證Nano Banana Pro 的圖像生成能力再次進化後,生成圖像和真實圖像愈發難以區分。但Google在這次更新發佈後,對 AI 圖像鑑別採取了新的方法,提高內容來源的透明度。Gemini 應用中現在加入了一項新功能:使用者可以直接驗證某張圖像是否由 Google AI 生成或編輯。從今天開始,使用者可以直接在 Gemini 應用中驗證某張圖像是否由 Google AI 生成或編輯。如果你看到一張圖像並希望確認它是否由 Google AI 生成,只需將其上傳至 Gemini 應用,並提出類似於:「這是由 Google AI 生成的嗎?」的問題,就可以獲取準確的答案。這一能力由 SynthID 實現,這是Google的數字水印技術,它將不可察覺的訊號嵌入到 AI 生成內容中。Google在 2023 年推出 SynthID。自那以來,已有超過 200 億份 AI 生成內容通過 SynthID 加上水印。Gemini 會檢測圖像中的 SynthID 水印,並結合自身的推理能力,為使用者提供結果,使使用者更瞭解你在網上看到的內容的背景。不久後,Google將擴展 SynthID 驗證能力,支援包括音視訊在內的更多格式,並讓這些能力覆蓋更多產品,如搜尋等。作為此次發佈的一部分,從今天起,通過 Gemini、Vertex AI,Google ADs、Flow 生成的 Nano Banana Pro(Gemini 3 Pro Image)圖像都將嵌入 C2PA 中繼資料,進一步提升圖像生成方式的透明度。面向各類使用者上線Google表示,會在多個原本支援舊版本模型的 Google 產品中上線 Nano Banana Pro:面向消費者與學生在 Gemini App 中,當你選擇 「Create images」並使用 「Thinking」模型時,將在全球範圍內陸續上線。免費使用者會獲得有限的免費額度,用完後將回退至原版 Nano Banana 模型。Google AI Plus、Pro 和 Ultra 的訂閱使用者將獲得更高額度。在搜尋的 AI Mode 中,Nano Banana Pro 將向美國的訂閱使用者提供。NotebookLM 中,Nano Banana Pro 也將向全球訂閱使用者提供。面向專業人士Google Ads 將升級圖像生成功能至 Nano Banana Pro,讓廣告主可在 Asset Studio 中使用最前沿的生成與編輯能力。同時,它也將從今天開始陸續向 Workspace 使用者推出,包括 Google Slides 和 Google Vids。面向開發者與企業可通過 Gemini API 與 Google AI Studio 訪問,並可在 Google Antigravity 中用於建立豐富的 UX 佈局與原型。企業可立即在 Vertex AI 中開始大規模內容創作支援,並且即將登陸 Gemini Enterprise。面向創意人士Nano Banana Pro 將提供給使用 Flow 的 Google AI Ultra 訂閱使用者,為創作者、導演與行銷團隊提供更精準、更可控的鏡頭與場景生成能力。Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 模型可通過 Gemini API、Google AI Studio 和 Vertex AI 以付費預覽形式使用。使用 Nano banana (Gemini 2.5 Flash Image)獲取更快、更低成本的圖像生成/編輯;使用 Nano banana Pro(Gemini 3 Pro Image)處理更加複雜、要求更高的任務,但成本與延遲也更高。 (invest wallstreet)